智能论文笔记

AutoWS-Bench-101: Benchmarking Automated Weak Supervision with 100 Labels

Nicholas Roberts , Xintong Li , Tzu-Heng Huang , Dyah Adila , Spencer Schoenberg , Cheng-Yu Liu , Lauren Pick , Haotian Ma , Aws Albarghouthi , Frederic Sala

分类：机器学习 | 人工智能 | 计算机视觉 | (统计)机器学习

2022-08-30

弱监督（WS）是一种有力的方法，可以构建标记的数据集，面对几乎没有标记的数据，用于培训监督模型。它用标签函数（LFS）表达的多个嘈杂但廉价标签的估计取代了手持标签数据。尽管它已成功地用于许多域中，但弱监督的应用程序范围受到构造具有复杂或高维特征的域的标记功能的困难。为了解决这个问题，少数方法提出了使用一小部分地面真实标签自动化LF设计过程的方法。在这项工作中，我们介绍了aettos-bench-101：在挑战WS设置中评估自动化WS（autows）技术的框架 - 以前难以或不可能应用传统的WS技术是一组不同的应用程序域。虽然AtoW是扩展WS应用程序范围的有希望的方向，但诸如零击基础模型之类的强大方法的出现揭示了需要了解介绍技术如何与现代零射击或几次学习者进行比较或合作。这为autows-bench-101的中心问题提供了信息：给定每个任务的初始集100个标签，我们询问从业者是否应使用autows方法生成其他标签或使用一些简单的基线，例如来自基础模型或监督学习。我们观察到，在许多情况下，如果启动方法要超越基础模型的信号，则有必要超越简单的几个基线，而autows bench-101可以促进该方向的未来研究。我们以详尽的介绍方法进行彻底消融研究。

translated by 谷歌翻译

HTML版本

基础模型为使用开箱即用的嵌入和一些标签示例构建模型提供了令人兴奋的新范式。但是，尚不清楚如何在没有标记数据的情况下最好地应用基础模型。一种潜在的方法是将基础模型与弱监督框架融合在一起，该框架使用弱标签来源（预训练的模型，启发式方法，人群工人）来构建伪标记。挑战是建立一个最能利用基础模型和弱来源中可用信号的组合。我们提出了Liger，这是一种使用基础模型嵌入来改善现有弱监督技术的两个关键要素的组合。首先，我们通过分区嵌入空间和每分部分的源精度来产生较弱的源质量估计。其次，我们通过扩展嵌入空间中的源票来提高源覆盖范围。尽管基础模型具有黑盒的性质，但我们证明了表征我们的方法如何提高性能的结果，并证明了通过在嵌入空间中标签分布的平滑度来表明升降尺度。在六个基准的NLP和视频任务上，Liger的表现优于香草弱监督，弱监督的KNN和适配器的弱监督和适配器的表现为11.8分，而传统手工标签监督的KNN和适配器则以7.2分的监督。

translated by 谷歌翻译

尽管机器学习模型在自然语言处理中的成功（NLP）任务中，但是这些模型的预测经常失败在分销（OOD）样本上。事先作品专注于开发用于检测ood的最先进的方法。 oo ood样本如何与分布式样品不同的基本问题仍未得到答复。本文探讨了培训模型中的数据动态如何，可以使用广泛的细节来了解OOD和配送样本之间的根本差异。我们发现数据样本的句法特征，即该模型在ood和分销案件中持续预测不正确，直接相互矛盾。此外，我们观察到初步证据支持假设模型更容易锁存在琐碎的句法启发式（例如，在对OOD样本进行预测时锁存两种句子之间的单词。我们希望我们的初步研究加速了对各种机器学习现象的数据为中心的分析。

translated by 谷歌翻译

We present NusaCrowd, a collaborative initiative to collect and unite existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have has brought together 137 datasets and 117 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their effectiveness has been demonstrated in multiple experiments. NusaCrowd's data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and its local languages. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and its local languages. Our work is intended to help advance natural language processing research in under-represented languages.

translated by 谷歌翻译